BIJUNG:26.6.1 기존 벤치마크의 한계: 특정 태스크 성공률(Success Rate) 측정의 무의미함